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摘 要 : 为 了 优化 大 规模 集群 运行 MapReduce 作业 时 的 通信 效率 和 减少 Shuffle 数据 传输 量 。 首 先 采 用 存储 局 部 性 
换取 通信 和 局 部 性 的 策略 ， 建 立 一 个 分 布 式 协同 数据 映射 模型 ; AAA 习 方 法 来 提取 作业 数据 的 
局 部 性 特征 ， 实 现 map 计算 数据 的 有 效 部 署 ; 最 后 ， 利 用 软件 定义 网 络 的 全 局 灵活 控制 能 力 ， 优 选 通信 链 路 好 的 节 
点 并 将 计算 任务 映射 到 该 类 节点 中 。 实 验 表明 对 于 中 间 数 据 混 洗 密 PE TEO 通信 延迟 降低 了 
4.3%~5.8%。 该 方案 能 减少 Shuffle 流量 和 数据 迁移 延迟 ， 并 且 适 合 各 种 调度 策略 和 网 络 拓扑 结构 。 
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Abstract: To optimize communication efficiency and reduce the data transmission of shuffle in large-scale clusters running 
for MapReduce jobs, a distributed collaborative data mapping model was built based on the strategy, which is designed by 
replacing the communication locality by storing locality. Then the local features of jobs are extracted by random sampling 
and machine learning method in order to realize the effective deployment of Map tasks. Finally, the good communication 
links are selected based on the software define network technology due to with the global flexible control capabilities. And 
the Map Tasks are scheduled to such nodes. Experimental results show that it has better optimization effect on 
shuffle-intensive jobs. The communication delay is reduced by 4.3% to 5.8%. This solution can reduce Shuffle traffic and 
data migration delay. It is suitable for various scheduling strategies and network topologies. 

Key words: data communication optimization; MapReduce; software-defined network; collaborative data Mapping 


0 引言 设计 资源 优化 分 配 系统 来 提高 MapReduce 的 计算 性 能 , 将 中 
di [RI Ait s 4 SC 8] FLA TE tt Je E BI bor ELO a 7o S P p ED, 
随 着 大 数据 分 析 和 实时 计算 的 普及 ， 大 规模 集群 中 运行 在 iShuffle 系统 中 分 离 数据 混 洗 与 Reduce 过 程 。 在 抽取 的 
人 着 大 量 MapReduce 模式 的 作业 。MapReduce 把 计算 分 成 Map Shuffle 服务 中 重新 映射 数据 块 来 均衡 中 间 数 据 倾斜 和 降低 
和 Reduce 两 个 阶段 ， 在 Map 中 输入 数据 分 成 多 个 数据 块 并 Shuffle B] 5 3E JR, 
被 映射 各 节点 中 完成 并 行 计算 。Map 计算 的 中 间 结 果 需 要 通 b) 细 粒度 的 中 间 数 据 汇聚 优化 研究 。 采 用 网 内 关联 性 流 
过 数据 混 洗 实现 重 定位 。 在 数据 混 洗 过 程 中 相同 Key 值 的 数 量 汇聚 后 再 传输 的 方式 ， 降 低 中 间 数 据 传输 延迟 外 ,Ke 等 在 
据 要 从 各 节点 汇聚 到 同一 节点 中 来 完成 Reduce 计算 ,在 数 ] Reduce 阶段 前 增加 一 个 数据 汇聚 层 , 将 中 间 数 据 汇聚 转换 成 
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混 洗 中 会 出 现 多 个 节点 向 同一 节点 传输 数据 的 incast 问题 。 混合 整数 非 线性 规划 问题 ， 再 设计 分 布 式 数据 分 发 算法 来 优 

目前 数据 中 心中 数据 混 洗 的 网 络 传输 量 占 到 整个 网 络 流量 的 ”化 中 间 数 据 传 输 名 。 

58.6%0， 中 间 数 据 通信 成 为 MapReduce 计算 的 一 个 重要 性 c) 粗 粒度 的 优化 中 间 数 据 的 放置 研究 。 将 中 间 数 据 放 入 

能 瓶颈 ， 降 低 中 间 数 据 传 输 延 迟 是 提高 大 数据 计算 性 能 的 迫  RDMA 中 间 存 储 层 中 ,以 此 提高 中 间 数 据 读 写 效率 和 减少 网 

Ws. 2& pH Pe EUM d E 7 RUE BELA H DATE RT E LR , 
目前 , 对 于 MapReduce i 5EBiSX P RI Aus P UL GE 重新 计算 数据 中 心 节点 之 间 的 网 络 距离 ， 尽 量 将 Reducer {E 

究 ， 主 要 分 为 四 个 方面 务 放 置 到 相似 的 节点 中 。 通 过 计算 靠近 数据 的 方法 来 减少 

a) 粗 粒度 的 数据 块 均衡 映射 ,在 Hadoop 中 数据 分 块 的 映 ” Shuffle 数据 量 外 。 
射 采 用 简单 的 Hash 函数 法 ， 导 致 数据 分 块 分 布 不 平衡 。 为 由) 从 优化 数据 中 心 网 络 体系 角度 来 研究 外 。 针 对 数据 中 
了 解决 该 问题 Ibrahim 等 提出 感知 公平 的 数据 键 值 分 区 方法 ， ” 心 胖 树 网 络 结构 提出 优化 核心 网 络 流量 的 方法 ， 来 解决 
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根据 数据 键 值 频 率 分 布 来 设计 数据 块 映射 方案 外; Palanisamy ”Shuffle 通信 流量 


产生 的 网 络 拥塞 问题 中 ,软件 定义 网 络 SDN 
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作为 一 种 逐渐 成 熟 的 新 技术 也 成 为 一 种 优化 Shuffle 流量 的 
方法 。 利用 SDN 来 优化 计算 集群 的 网 络 链 路 , 优化 计算 节点 
之 间 链 路 质量 来 减少 数据 传输 延迟 001;， 利用 SDN 能 掌握 网 
络 全 局 信息 的 能 力 设 计 一 种 感知 带宽 的 任务 调度 模型 ， 在 数 
据 中 心 网 络 范围 内 保证 了 数据 的 局 部 性 ， 提 高 计算 作业 的 性 
RELA, 利用 SDN 对 网 络 灵活 的 控制 能 力 ,在 OpenFlow 交换 


机 上 完成 Shuffle 中 间 数 据 合 并 , 减少 数据 流量 和 传输 时 间 吕 ; 


在 SDN 基础 上 提出 一 个 针对 Shuffle 流量 优化 的 路 由 算法 ， 
根据 Shuffle 流 的 特征 选择 高 效 的 转发 路 径 , 该 方案 不 仅 能 提 
高 计算 性 能 而 且 能 增加 网 络 稳定 性 040。 综 上 所 述 , 在 Shuffle 


是 合理 的 数据 块 布局 ， 输 出 值 为 具有 通信 高 效 的 节点 子 集 。 
根据 反 函 数 求解 先 确定 先 确定 数据 布局 映射 函数 的 值 域 ， 即 
明确 具有 通信 局 部 性 的 计算 节点 , 比如 位 于 同一 机 架 Ri 中 的 
节点 集合 {Ni,N2,.…Nk}。 在 函数 的 因 变 量 确定 后 ,寻找 相应 函 
数 自 变 量 的 值 {B1,B2,…,Bt to Æ MapReduce 计算 模式 中 ， 计 
算 任 务 Ti 被 划分 成 子 任务 Ti - (Tsi, T2,... Tsy , 每 个 子 任 务 并 
发 处 理 输入 数据 的 子 集 D=={B1,B2,…,Bt }。 采 用 式 4) 实现 
数据 映射 函数 的 决策 空间 转换 : 

fI ON fS) U) (4) 
经 过 决策 空间 转换 后 ， 数 据 映射 问题 变 成 寻找 具有 通信 


阶段 实现 细 粒 度数 据 汇聚 来 减少 通信 和 量 ， 虽 然 准 确 性 较 高 ， 
但 是 算法 复杂 性 高 。 本 文采 用 粗 粒度 的 数据 块 均衡 映射 方案 
来 提高 Shuffle 阶段 的 数据 局 部 性 ， 并 且 利 用 SDN 能 够 灵活 
掌握 网 络 全 局 链 路 的 特性 把 数据 块 提前 调度 到 通信 和 链 路 质量 
高 的 节点 中 。 本文 结 合 数 据 局 部 化 来 优化 MapReduce 作业 调 
度 


度 算 法 ， 降 低 中 间 数 据 传输 量 和 通信 延迟 。 具 有 两 个 优点 : 
于 数据 映射 优化 工作 在 真正 调度 之 前 执行 ， 因 此 适合 任何 
MapReduce 调度 算法 的 改进 ; 在 SDN 灵活 控制 网 络 全 局 的 
支持 下 优化 集群 通信 和 链 路 ， 不 受 网 络 拓扑 结构 的 限制 。 


1 ”问题 描述 


在 MapReduce 模型 中 ， 分 布 在 各 节点 的 Map 任务 要 将 
中 间 数 据 汇 聚 起 来 作为 Reduce 任务 的 输入 ,这 就 是 中 间 数 据 
混 洗 的 Shuffle 阶段 。 在 Shuffle 阶段 会 出 现 大 量 节 点 向 同一 
节点 传输 数据 的 现象 ， 因 此 容易 引起 网 络 性 能 瓶颈 。 为 了 提 
高 网 络 性 能 提出 一 种 利用 数据 存储 局 部 性 来 优化 网 络 通信 的 
协同 数据 映射 模型 。 协 同 数据 映射 模型 是 计算 任务 的 输入 数 
据 集 和 计算 节点 集 之 间 的 函数 映射 ， 利用 该 映射 实现 输入 大 
数据 合理 有 效 的 分 割 与 部 署 。 
设计 算 任务 Ti 的 输入 数据 集 D 志 {Bi 二 1...m}， 集 群 为 计 
算 节 点 集 {Njyj=1..…,n}， 则 函数 了 表示 协同 数据 映射 模型 。 
f {BY} 9 UN Y - 1m, j -1.n] (1) 
如 图 1 所 示 ， 计 算 作 业 输 入 数据 GA 以 一 个 全 局 数组 形 
式 存在 ， 该 全 局 数组 存放 数据 存储 的 元 数据 ， 即 每 个 数据 分 
块 的 分 布 情况 。 数 据 分 块 (Data Block) 是 一 个 向 分 布 式 存 
储 系统 直接 映射 的 物理 存储 单元 , 可 分 布 在 各 个 节点 的 磁盘 。 
比如 ，GA= (Bi,B2,B3,B4,Bs,B6)， 存 放 到 4 个 计算 节点 
[Nodei,Node4] 中 ， 可 Xx cm 为 GA= 
(Bi1(N1),B2(N1),B3(N2),B4(N3),Bs(N4),B6(Na)), 并 且 满 足 式 (2) 
的 约束 。 


Min(2,Cost(Nij)) (i+ j) Q) 


式 (2) 中 计算 任务 的 数据 映射 到 一 个 计算 节点 集合 中 ， 访 
集合 各 节点 之 间 网 络 通信 代价 最 小 。 总 之 ， 要 解决 的 问题 是 
实现 映射 节点 之 问 数据 传输 代价 最 优 问题 。 

2 ”协同 数据 映射 模型 

协同 数据 模型 要 解决 计算 数据 分 布 的 辨识 问题 。 数 据 分 
布 办 识 的 方案 如 下 : 设计 算 作业 的 数据 由 各 数据 子 集 
(Bi,Ba,..,BiBi.. Ba) fI, Cost 为 通信 代价 函数 (该 函数 包 
括 节 点 内 通信 、 节 点 间 通 信 , 其 中 节点 间 通 信 分 成 机 架 内 和 跨 
机 架 通信 代价 )， 数 据 布局 时 的 限制 条 件 如 式 (3〉 所 示 。 

Min(>  Cost(B, mB,)) (sj, i-laj-1l.an) (3) 
在 满足 该 限制 条 件 下 辨识 数据 映射 函数 关系 。 根 据 基本 
的 函数 映射 关系 ， 采 用 求解 反 函数 的 思路 。 映 射 函 数 的 输入 


局 部 性 的 计算 子 任务 问题 。 因 此 输入 数据 的 决策 空间 转换 到 
计算 任务 的 特征 空间 中 了 ， 再 从 计算 任务 的 特征 空间 中 寻找 
决策 属性 ， 将 计算 任务 划分 成 通信 局 部 性 好 和 差 的 两 大 类 。 
然后 把 通信 局 部 性 较 好 的 节点 集 映射 到 网 络 链 路 好 的 节点 中 ， 
比如 位 于 同一 机 架 交 换 机 内 的 物理 节点 。 
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节点 1 节点 2 节点 3 节 点 
图 1 数据 映射 示意 图 


Fig. 1 Data mapping schematic diagram 

3 ”通信 优化 方案 
3.1 作业 分 类 预测 

计算 作业 分 类 预测 的 主要 思想 是 在 异 构 集群 中 运行 
MapReduce 作业 ， 提 前 计算 作业 的 特征 ， 并 且 记 录 各 样本 作 
业 的 网 络 通信 过 程 ， 量 化 数据 传输 量 并 且 建 立 分 类 指标 。 通 
过 机 器 学 习 的 方法 建立 分 类 器 ， 训 练 分 类 模型 后 实现 在 线 预 
测 。 根 据 该 思路 要 解决 计算 作业 特征 提取 、 分 类 指标 量化 和 
作业 分 类 器 选择 三 个 问题 。 
3.1.1 计算 作业 特征 
选择 MapReduce 计算 作业 的 特征 是 建立 分 类 模型 训练 
的 前 提 条 件 , 然而 无 法 提取 MapReduce 作业 的 运行 时 性 能 参 
数 05， 比 如 Map,Reduce 的 执行 时 间 以 及 各 节点 集群 硬件 资 
源 的 利用 率 。 这 些 运行 信息 需要 作业 执行 后 才能 获得 ， 无 法 
应 用 到 静态 的 作业 分 类 预测 中 。 因 此 选择 计算 作业 部 署 运行 
前 的 信息 作为 样本 特征 ， 有 具体 如 下 : 

MapReduce 作业 提交 计算 平台 之 前 ， 用 户 对 计算 作业 提 
供 两 个 基本 信息 : 

al 作业 的 基本 类 型 T. MapReduce 作业 的 基本 类 型 有 
CPU 密集 型 作业 、LIO 及 网 络 密集 型 作业 、CPU&IO 混合 型 
作业 三 种 。 采 用 高 、 中 和 低 三 个 模糊 等 级 来 衡量 三 种 类 型 ， 
例如 : CPU 密集 型 作业 { 高 =0.1， 中 =0.2， 低 =0.3}、CPU&IO 
混合 型 作业 {高 =0.6， 中 =0.5， 低 =0.4} 和 1/O 及 网 络 密集 型 作 
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业 { 高 =0.9， 呈 


b) 计 算 作业 的 输入 数据 规模 5S。 输入 数 扩 
FPF 和 低 三 个 模糊 等 级 来 量化 。 主 要 是 根 扩 


n 


P=0.8， 低 =0.7}。 


mé 
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B. $: 面向 MapReduce 计算 的 大 规模 集群 通信 优化 


居 规 模 也 采用 


虽 专 家 的 经 验 值 确定 


数据 规模 的 大 小 范围 ， 再 界定 高 、 中 和 低 ， 分 别 对 应 0.9,0.6 


和 0.3. 


群 中 。 在 此 提取 作 


另 一 方面 ，MapReduce 计算 作业 由 ji 
执行 前 的 部 署 信息 来 作为 分 类 特征 。 


设 集群 包括 若 


点 R 二 {nyn2,.. 


实现 Map 任务 


由 度 程序 预先 部 署 到 


F 机 架 G-{RuR2…Rp}， 每 个 机 架 中 有 计算 节 


.ndq} 。 调 度 程序 根据 Map 任务 处 理 的 数据 块 来 
的 划分 ， 如 式 (5) 所 示 。 

1013 0 3 

8104 0 6 

0015 7 5 
=o 0 20 7 6 G) 

0604 2 9 

45203 1 13 
该 行列 式 的 行 表示 机 架 ， 列 表示 机 架 内 的 节点 。 这 里 共 
6 个 机 架 ， 每 个 机 架 有 7 个 节点 。 作 业 J 的 Map 任务 分 布 为 
一 个 任务 矩阵 了 = [Ti]pxg， 王 表示 映射 到 该 节点 站 中 的 Map 
任务 数量 ， 若 集群 中 的 某 节点 失效 或 者 不 存在 ， 则 设置 Ti 
47 5 表示 Ro 机 架 中 第 五 个 节点 noa 中 分 


为 空 (NulD)。 例 如 To, 


配 了 5 个 任务 ， 所 有 零 元 素 代表 该 节点 未 分 配 到 任务 ， 比 如 


To17 0; Null 


节点 表示 该 节点 不 存在 或 者 处 于 故障 ; 
作业 Map 任务 矩阵 基础 上 引入 两 

a) Map f£ 4& 4-fi Wii RE . WER 
被 划分 任务 的 节点 数 为 m， 则 分 布 稀 


个 特征 指标 : 
f 中 计算 节点 总 


WEE Y 如 式 (6) 


y=m/n (n>0,m>0,m<n) 


分 布 式 稀 朴 度 刻 画 了 Map fE55 Xi 
明 任 务 划 分 越 细 ， 涉 及 的 计算 节点 越 多 ， 作 业 计 算 
据 传输 越 复杂 。 
b)Map 任务 分 散 度 。 设 集群 
的 节点 所 占据 的 机 架 数 为 无 贝 


I 分 的 广度 , 该 


A=k/p (k>0,p>0,k< p) 


言 活 跃 度 指标 


来 分 类 ， 把 计算 
择 MapReduce 1E! 


R&S. dE 


(6) 


CEST 
Lr. 


FP 机 架 数 为 p， 被 分 配 任务 
1 分 散 度 A naX CIO 所 示 。 


(7) 


分 散 度 描述 Map 任务 跨 机 架 划 分 的 程度 , 该 值 越 大 则 说 
明 跨 机 架 数据 传输 越 复杂 。 
3.1.2 通信 活跃 度 
本 节 将 作业 通 
通信 活跃 和 不 活跃 两 大 类 。 


作业 分 成 
上 的 数据 


Shuffle 阶段 跨 机 架 数 据 传输 作为 观测 数据 ， 设 作业 Ji = 


{ni,n2,.…np} ,节点 之 间 相 互通 信 


在 该 通信 和 集合 中 跨 机 架 节 点 2 
d(< n,n; >n; eR,n;eR,,iz)) 


涉及 到 的 跨 机 架 数据 通信 生 


式 (10) 
化 到 [0,1] 中 。 


E Ei SEU EIE NI 
MapReduce 基准 程序 集 和 
中 选 50 个 样本 作业 , 再 监控 数据 Shuffle 阶段 中 的 网 络 流量 ， 
并 统计 跨 机 架 通 信 量 ;最 后 用 式 〈10) 计算 各 作 


RBE. JE 


其 中 : R 为 机 架 ，. 的 数据 混 济 
D, - 3.4, 


X (9) rp k 是 跨 机 架 通 信 的 节点 对 数目 。 在 此 将 作业 
万 的 通信 活跃 度 CA; (communication activity) 定义 为 该 作业 


,因此 着 也 是 一 个 通 
间 的 数据 通信 和 量 表 示 为 dijs 


阶段 的 通信 量 为 Di 


时 的 平均 值 如 下 : 
CA = D; [kx Du, 


RER: 


(8) 


(9) 


(10) 


中 Dmax 为 单一 节点 对 最 大 通信 量 ， 把 CA; 归 一 


接着 要 确定 作 


WIK HIN 
的 分 类 。 在 此 用 实验 分 析 样 本 的 方法 


并 


KW 


跃 度 ， 样 本 作业 的 通信 活跃 度 的 分 布 如 图 2 所 示 。 


现 有 大 数据 分 析 


值 ， 通 过 通信 活跃 度 
来 辨 
作业 


此 的 通信 


zen 
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活 跃 度 


信 


通 


25 30 35 40 45 50 


样本 dE dp X 


通信 活跃 度 分 布 


Fig.2 Sample communication activity distribution 


# 本 作业 通信 活跃 度 的 分 布 可 看 出 , 在 0.3~0.4 


存在 一 个 明显 的 分 界线 。 


计算 作业 类 型 预测 模型 是 一 个 分 类 模型 ， 输 入 作业 特征 
向 量 <T,S，7 ,4 >, 预 测 输出 为 通信 活跃 度 CA, 根据 通信 活跃 
在 此 采用 BP 神经 网 络 作为 分 类 器 ， 
网 络 是 一 个 利用 反 向 传播 来 调整 网 络 参数 的 传统 模 
于 实现 的 优点 09。BP 神经 网 络 拓扑 结构 
的 三 层 结 构 : 输入 
节点 分 别 为 4,6,1， 隐 
经 元 传递 函数 为 800=Wi+ 
| 络 经 过 562 次 迭代 后 | 
.2 网 络 链 路 优化 设计 


BELT EPI S 


神经 元 个 数 通 过 经 验 值 设 定 。 隐 层 神 
,网 络 学 习 率 0.3, 样 本 容量 为 100， 
ALS e 


CD 


样本 通信 活跃 度 置信 区 间 分 析 ， 


言 活跃 作业 时 阅 值 可 设 定 为 0.38。 


民 、 隐 层 和 输出 层 。 各 层 神 经 元 


局 部 性 好 的 节点 子 集 ， 这 些 节点 之 
间 传 输 链 路 质量 高 。 通 过 将 MapReduce 任务 部 署 到 通信 局 部 
减少 多 个 计算 任务 Shuffle 过 程 的 数据 
群 的 通信 效率 。 在 传统 集群 中 通信 局 部 性 较 
4 节点 严重 依赖 网 络 拓 才 


结构 。 比 如 在 Fat-Tree 结构 中 位 


F 同一 个 Pod WARATA 


长 具 有 较 好 的 通信 局 部 性 ， 所 有 与 


制 功 能 ， 实 现 硬件 实现 数 志 


机 架 内 交换 机 连接 的 节点 具有 较 高 的 通信 效率 。 然 而 这 种 依 
网 络 拓扑 结构 的 方案 存在 严重 缺点 : a) 扩展 性 差 。 当 
8 现 增 删节 点 或 者 节点 故障 离线 时 就 影响 通信 优化 方 
需要 及 时 掌握 网 络 拓扑 变化 ; bo 缺乏 动态 部 署 能 力 。 当 
用 户 作 业 负 载 出 现 变 化 时 ， 无 法 及 时 掌握 网 络 全 局 信息 ， 医 
整 网 络 拓扑 结构 的 能 
群 网 络 结构 的 问题 采用 软件 定义 网 络 
(software define network,SDN) 结 构 。SDN 是 一 种 新 兴 的 网 络 
网 络 硬件 设备 的 数据 转发 和 决策 控 
居 转 发 和 软件 控制 转发 的 逻辑 决策 


构成 , 而 MapReduce 


层 、 控 制 层 和 数据 层 ， 如 图 3 所 示 。 
FH SDN 控制 器 组 成 ,控制 器 负责 维护 整 
Pp 式 的 控制 功能 ， 数 据 层 包括 物理 
居 转 发 单元 ， 根 据 控制 层 下 发 的 转发 规 
的 转发 功能 ， 应 用 层 主 要 是 各 类 网 络 服务 的 
计算 也 是 作为 一 种 应 用 可 以 在 SDN 


在 SDN 架构 的 集群 网 络 中 如 何 获得 通信 


Yr 


的 方案 。 本 文 的 目的 是 为 了 找到 计算 节点 
Er BU] E £ RERA (e1,02,... ep BEANE 


此 求 通信 局 部 最 优 节点 集 转换 成 寻找 集群 网 络 中 最 
优 链 路 子 集 的 问题 .在 SDN 网 络 中 通过 测量 链 路 可 用 带宽 并 
E. BÆR EE 0-0 内 ， 通 过 链 


] 
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路 ei 的 流量 为 liei 的 传输 总 容量 为 c* 则 可 用 带宽 os 为 16)  endcase 
o; (t- 4,0 e xl(t nD/ (11) 17) endwhile 

该 求解 最 优 链 路 子 集 的 功能 模块 放置 到 SDN 的 控制 器 算法 1 的 输入 是 作业 队列 、 调 度 器 对 该 作业 的 预 调度 信 
内 ,由 于 SDN 控制 器 从 全 局 范围 掌握 网 络 的 拓扑 和 流量 信息 ， 息 以 及 当前 SDN 链 路 集合 ， 算 法 输出 是 作业 Map 任务 的 部 
采用 分 布 式 方式 管理 各 个 OpenFlow 交换 机 (Open 署 节点 集合 ， 即 一 个 作业 的 Map 任务 在 整个 集群 中 的 分 布 。 
VvSwitch,OVS)。SDN 控制 器 通过 OpenFlow 协议 发 出 交换 机 ”提取 作业 队列 中 作业 采用 原 调度 算法 产生 预 部 署 方案 ( 行 4)， 
状态 的 查询 指令 ，OVS 交换 机 的 Local 端口 接受 到 SDN 的 ” 再 使 用 神经 网 络 预 测 模 型 判断 作业 的 类 型 ( 行 5)。 根 据 作业 预 
控制 消息 OFQueueStatsRequest 后 ， 会 产生 一 个 响应 消息 测 类 型 来 判断 ( 行 0)， 如 果 是 通信 惰性 作业 , 则 维持 原 有 部 
OFQueueStatsReply。 在 该 消息 有 个 tx_byte 字段 统计 传输 字 ”方案 ( 行 7-9); 如 果 是 通信 活跃 作业 ， 启 动 SDN 控制 器 检测 
节 数 ， 查 询 消息 的 时 间 粒 度 是 纳 秒 级 。 然 后 发 起 连续 时 间 间 当前 链 路 可 用 带宽 ， 对 当前 链 路 集 的 可 用 带宽 排序 后 提取 
隔 内 的 两 次 请 求 就 能 统计 出 该 条 链 路 的 可 用 带宽 ， 这 里 设置 最 优 链 路 子 集 ( 行 11)， 更 新 该 作业 部 署 节点 集 ( 行 13);， 当 
的 间隔 是 1s。 最 后 遍历 集群 网 络 中 的 链 路 集合 后 可 求 出 最 优 ”作业 运行 结束 后 回收 SDN 链 路 资源 ( 行 14-15)。 
4 = p E, 4j ERRAR EA 
m Kogan au d 算 节点 ES. 4 ”仿真 实验 及 分 析 
beci een Le [mam 


al | a g- 本 节 中 使 用 32 个 节点 的 集群 建立 两 个 不 同 的 实验 床 环 
境 。 第 一 种 实验 环境 是 通过 三 层 交 换 机 来 模拟 数据 中 心 的 树 
型 拓扑 结构 ， 共 分 成 4 个 机 架 ， 每 个 机 架 中 部 署 8 个 计算 节 


si 


r 


EE 


x 


used. 点 。 第 二 种 实验 环境 部 署 软件 定义 网 络 环境 。 选 择 胖 树 拓扑 
网 络 ， 该 网 络 中 包含 50 台 交换 机 和 32 台 计 算 节点 ， 控 制 器 
v ES 和 交换 机 分 别 选 用 Ryu 和 OpenSwitch. 每 个 计算 节点 的 硬件 
m WT CN M 配置 为 Intel Xeon E5620 2.4GHz 的 双核 CPU, 16GB DDR 
(9 | a | "eT | UT o| n | RAM 和 2TB 的 SATA 硬盘 。 软 件 系统 使 用 Ubuntu15.0， 
== nias O E dE EE JDKI.8, Hadoopl.2.1 等 。 
e | 数据 平面 | 数据 平面 | | 数据 平面 数据 平面 | Hn. SOUS x& € Hibench 基准 程序 集中 的 
e | | | Sort, WordCount,TeraSort,Bayesian Classification 和 K-means 
-— EOD MEM Cluster 作为 测试 作业 ， 表 1 中 列 出 实验 作业 的 数据 规模 和 特 
图 3 SDN 架构 示意 图 JENS, 
Fig.3 SDN architecture schematic diagram 表 1 测试 作业 特征 
3.3 通信 和 能效 优 化 部 署 算法 Table 1 Test job characteristics 
N 针对 MapReduce 计算 模式 Shuffle 阶段 的 大 量 数据 通信 作业 名 简称 Map 输入 中 间 数 据 Reduce 输出 
coo ， 过程， 根据 作业 类 型 预测 结果 来 重新 调度 任务 的 分 布 。 基 于 Sort st 120GB 120GB 120GB 
> SDN 架构 实现 集群 中 的 网 络 互 连 , SDN 控制 器 端 实时 获取 网 WordCount wc 200GB 1123GB 4.1GB 
络 拓扑 结构 和 链 路 等 信息 。 将 通信 活跃 的 作业 重新 部 署 到 最 TeraSort ts 1TB 140 GB 1TB 
优 链 路 集合 的 节点 中 ;对 于 通信 惰性 的 作业 则 维持 原 部 署 方 Bayesian Classification bc 78GB 49GB 43 GB 
案 。 该 算法 核心 思想 是 尽量 控制 任务 之 间 的 通信 局 部 性 ， 减 K-means Cluster kc 66GB 330KB 4.6KB 
少 集群 中 数据 在 质量 差 链 路 中 的 性 能 损失 ， 并 以 此 提高 中 间 为 了 方便 表述 ， 文 中 数据 混 洗 通信 优化 方案 记 为 
数据 通信 效率 。 具 体 算法 如 下 所 示 : SCOD(shuffle communication optimization deployment)， 未 优 
算法 1: 通信 优化 部 署 算法 化 的 MapReduce 方案 直接 采用 Hadoop 的 默认 调度 方法 ， 简 
输入 : 大 数据 作业 队列 Q(J1,Jz,…,Jn)， 计算 作业 预 部 署 信 1174 MR(MapReduce). 
息 。 4.1 通信 性 能 对 比 及 分 析 
输出 : 作业 于 的 任务 矩阵 。 由 于 MapReduce 作业 完成 时 间 由 计算 时 间 和 中 间 数 据 
1) 初始 化 当前 链 路 集合 Ecur 通信 时 间 构 成 。 为 了 减少 实验 过 程 的 复杂 性 ， 忽 略 调度 造成 
2) while(queue(J) is not null) 的 计算 偏差 ， 设 相同 数据 规模 计算 作业 的 计算 时 间 相 同 ， 因 
3) 本 = Deque(J) 此 本 节 用 计算 作业 最 终 完 成 时 间 来 代 蔡 中 间 数 据 通信 时 间 。 
4) SiScheduling(Ji) 一 个 相同 数据 规模 作业 运行 在 不 同 的 实验 床上 上， 运行 时 间 长 
5) Jitype = Prediction(Si) 的 作业 认为 中 间 数 据 通信 时 间 长 。 如 图 4 所 示 。 
6)  switch(Jitype) 基准 作业 st,ts,bc 出 现 大 约 4.7%~6.2% 的 性 能 提升 , 然而 
7) ease Co: wc 和 kc 未 有 明显 的 性 能 优化 。 由 表 1 可 见 ， 中 间 数 据 量 
8) JS= Si 的 三 个 作业 st,ts,be 产生 了 较 好 的 通信 优化 效果 ; 中 间 混 洗 数 
9)  endcase 据 量 较 小 的 作业 we 和 kc 优化 效果 不 明显 。 因 此 该 通信 优化 
10) case Ci: 方案 对 数据 混 洗 密集 作业 的 优化 效果 好 。 
11) |. £i-Sort(Ecu) 为 了 进一步 验证 通信 性 能 的 优化 ， 选 择 数 据 混 洗 密 集 型 
12) . Ec Écw- Ei 的 TeraSort 作业 来 进一步 分 析 。 当 Map 阶段 结束 后 出 现 中 间 
13)  update(Ji.S) 数据 的 混 洗 Shuffle 过 程 ， 然 后 直到 Reduce 阶段 结束 。 从 技 
14) if Ji is completed 术 角 度 可 以 监测 到 Map 阶段 的 结束 时 刻 和 作业 完成 的 时 刻 。 


15) Ew Eca- Ei 如 图 5 所 示 , 计算 作业 数据 规模 分 别 为 32GB、64GB 128GB. 


512GB 和 ITB, Z4 


多 化 效果 对 


占 总 计算 时 间 的 比 侦 
计算 性 能 的 影响 较 明 显 ， 可 见 对 大 数据 密集 计算 


逐渐 减少 ， 说 明 随 着 数据 规模 增加 通信 


的 性 能 提升 具有 


较 好 意义 。 


DERI 


P 


ŞA, #: 


& 标 表示 数据 混 洗 和 Reduce 阶段 占 


人 革 业 计算 时 间 的 比例 ， 比 例 相对 减少 则 说 明 通信 过 程 得 
化 。 随 着 数据 规模 的 增加 SCOD 数 扩 


Reduce 阶 


整个 


到 


优 
段 所 


中 轴 所 示 , 直接 比较 作业 的 执行 
并 以 Hadoop 中 的 调 


面向 MapReduce 计算 的 大 规模 集群 通信 优化 


少 而 没有 作为 评估 作业 。 本 小 节 为 了 简化 实验 操作 ， 如 图 7 
间 来 分 析 通 信 优 化 效果 ， 


时 


度 模 型 作为 基 ; 


， 将 作业 
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Fig.4 Performance comparison between communication optimization 


schemes and benchmark methods 
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Fig.5  Terasort communication optimization comparison of different 
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优化 对 比 


随 着 计算 节点 的 增加 中 间 数 据 通信 过 程 变 的 更 加 复杂 ， 


Fig. 6 


范 化 为 1。 


node scales 


6 不 同 节点 规模 的 TeraSort 通信 优 


化 对 比 


Terasort communication optimization comparison of different 
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Fig.7 Contrastive 


执行 时 间 对 比分 析 


analysis of job execution time 


page-rank Xinverted-index — term-vector 


SCOD 在 执行 如 图 7 的 实验 作 }| 
比 MR 基准 调度 模型 要 少 。 由 于 相同 
Reduce 的 计算 时 间 基 本 相同 , 因此 作业 
间 数 据 混 洗 的 通信 时 间 , 进一步 验证 了 所 
虽然 作业 inverted-index 和 


[ 提 方 案 的 优化 效果 。 
term-vector 属于 数据 混 洗 密集 型 


时 ， 作 业 整 体 执行 时 间 
数据 规模 作业 的 Map 和 
执行 减少 的 时 间 为 中 


站 


通信 优化 方案 能 否 适 应 集群 扩展 成 为 一 个 重要 问题 ， 本 节 作业 ， 由 于 计算 中 产生 的 中 间 数 据 量 较 小 ， 通 信 优 化 效果 相 
点 考虑 系统 扩展 性 对 通信 优化 的 影响 。 为 了 增加 计算 节点 数 对 较 差 ， 而 作业 self-join 和 pagerank 的 中 间 数 据 规模 较 大 ， 
量 ， 在 SDN 的 胖 树 结构 上 分 别 启动 32,64,128 个 虚拟 机 节点 通信 效果 明显 好 于 前 两 种 作业 。 
来 执行 TeraSort 作业 ， 通 过 分 析 数 据 混 洗 阶 段 所 占 整个 运行 5 £u 
时 间 的 比例 来 考察 通信 优化 效果 。 如 图 6 所 示 ， 随 着 计算 节 FERES 
点 数量 的 增加 数据 混 洗 所 占 比例 逐渐 下 降 ， 而 且 随 着 数据 规 针对 MapReduce 计算 模式 中 数据 混 洗 密 集 型 的 作业 , WE 
模 增加 Shuffle 所 占 比 例 也 逐渐 下 降 。 实 验 表 明 当 集群 节点 和 计 优 化 中 间 数 据 通信 的 调度 方案 。 利 用 BP 神经 网 络 建立 作 
数据 规模 增加 后 ， 该 方案 的 优化 效果 明显 增加 。 当 集群 节点 业 预 测 模型 ， 判 断 出 数据 通信 密集 作业 后 再 把 该 作业 的 任务 
数量 较 小 时 ,网络 背 景 流量 掩盖 了 中 间 数 据 通信 的 优化 效果 ， 部 署 到 网 络 链 路 较 好 的 计算 节点 中 ， 实 现 以 存储 局 部 性 来 换 
此 当 数 据 规模 小 和 网 络 规模 小 时 优化 效果 不 明显 。 取 通 信和 局 部 性 的 优化 策略 。 为 了 适应 各 种 网 络 拓扑 结构 采用 
4.3 作业 执行 时 间 对 比 SDN 技术 来 寻找 链 路 较 优 的 节点 , 能够 灵活 地 应 对 数据 中 心 
为 了 提高 实验 验证 效果 , 再 从 PUMAUN?1 和 HiBench 基准 内 各 种 网 络 结构 的 扩展 需求 , 并 且 适 应 MapReduce 模式 的 各 
程序 集 选 了 四 个 作业 : sefl-join,inverted-index,pagerank 和 种 调度 算法 。 实 验 表 明 能 够 有 效 控 制 中 间 数 据 混 洗 阶 段 的 局 
term-vector， 这 些 作 业 的 中 间 数 据 量 大 约 在 32 ~300 GB W, 部 性 ， 减 少 中 间 数 据 传输 延迟 和 作业 的 整体 执行 时 间 ， H 
对 此 属于 数据 混 洗 密集 型 的 作业 。 对 于 其 他 的 作业 如 较 好 的 通信 优化 效果 。 然 而 在 大 数据 作业 的 实时 计算 中 ， 
histogram-movies,histogram-ratings 和 grep， 由 于 数据 交换 较 于 作业 动态 提交 而 且 网 络 链 路 时 变性 。 未 来 深入 研究 
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